基于变压器的预审前的语言模型(LMS)在自然语言的理解中无处不在,但由于其二次复杂性,无法应用于故事,科学文章和长文档等长序列。尽管已经提出了无数有效的变压器变体,但它们通常是基于需要从头开始的昂贵预处理的自定义实现。在这项工作中,我们提出了雪橇:滑动编码器和解码器,这是一种处理长序列的简单方法,可以重新使用和利用经过战斗测试的短文本预处理的LMS。具体而言,我们将输入分配到重叠的块中,用短文本LM编码器编码每个块,然后使用预审计的解码器将信息融合到跨块(Fusion-In-In-In-In-indecoder)之间。我们通过受控实验说明,雪橇提供了一种可行的策略,可以长期理解并评估我们在卷轴上的方法,这是一个基准,该基准在各种语言理解任务中具有七个数据集。我们发现,雪橇与高达50倍的专业型号具有竞争力,并且需要专用且昂贵的预处理步骤。
translated by 谷歌翻译
NLP基准在很大程度上主要集中在短篇文本上,例如句子和段落,即使长文本在野外占相当数量的自然语言。我们介绍卷轴,这是一套需要在长文本上推理的任务套件。我们检查现有的长文本数据集,文本自然是长期的,同时优先考虑涉及在输入上扫描信息的任务。滚动包含概述,问题应答和自然语言推理任务,包括多个域,包括文学,科学,业务和娱乐。初始基线(包括啰覆编码器),表明滚动有充足的改进空间。我们以统一的文本到文本格式提供所有数据集,并托管Live Refordboard,以促进模型架构和预用方法的研究。
translated by 谷歌翻译
可解释性正在成为一个活跃的研究主题,因为机器学习(ML)模型更广泛地用于做出关键决策。表格数据是不同应用中最常用的数据模式之一,如医疗保健和金融。用于表格数据的大部分现有的解释性方法仅报告功能 - 重要性分数 - 或者每个示例)或全局(每种型号) - 但它们不提供特征如何交互的解释或可视化。我们通过引入特征向量来解决此限制,这是一种为表格数据集设计的新的全局解释性方法。除了提供功能重要性之外,特征向量通过直观的特征可视化技术发现特征之间的固有语义关系。我们的系统实验通过将其应用于几个现实世界数据集来证明这种新方法的经验效用。我们还提供了一种用于特征向量的易于使用的Python包。
translated by 谷歌翻译
离散对手攻击是对保留输出标签的语言输入的象征性扰动,但导致预测误差。虽然这种攻击已经广泛探索了评估模型稳健性的目的,但他们的改善稳健性的效用仅限于离线增强。具体地,给定训练有素的模型,攻击用于产生扰动(对抗性)示例,并且模型重新培训一次。在这项工作中,我们解决了这个差距并利用了在线增强的离散攻击,在每个训练步骤中产生了对抗的例子,适应模型的变化性质。我们提出(i)基于最佳搜索的新的离散攻击,以及(ii)与现有工作不同的随机采样攻击不是基于昂贵的搜索过程。令人惊讶的是,我们发现随机抽样导致鲁棒性的令人印象深刻,优于普通使用的离线增强,同时导致训练时间〜10x的加速。此外,在线增强基于搜索的攻击证明了更高的培训成本,显着提高了三个数据集的鲁棒性。最后,我们表明我们的新攻击与先前的方法相比,我们的新攻击显着提高了鲁棒性。
translated by 谷歌翻译
Neural Representations have recently been shown to effectively reconstruct a wide range of signals from 3D meshes and shapes to images and videos. We show that, when adapted correctly, neural representations can be used to directly represent the weights of a pre-trained convolutional neural network, resulting in a Neural Representation for Neural Networks (NeRN). Inspired by coordinate inputs of previous neural representation methods, we assign a coordinate to each convolutional kernel in our network based on its position in the architecture, and optimize a predictor network to map coordinates to their corresponding weights. Similarly to the spatial smoothness of visual scenes, we show that incorporating a smoothness constraint over the original network's weights aids NeRN towards a better reconstruction. In addition, since slight perturbations in pre-trained model weights can result in a considerable accuracy loss, we employ techniques from the field of knowledge distillation to stabilize the learning process. We demonstrate the effectiveness of NeRN in reconstructing widely used architectures on CIFAR-10, CIFAR-100, and ImageNet. Finally, we present two applications using NeRN, demonstrating the capabilities of the learned representations.
translated by 谷歌翻译
谷歌的运营洪水预测系统是制定的,为机构和公众提供准确的实时洪水警告,重点是河流洪水在大型潮流的河流中。它在2018年开始运作,自从地理位置扩展以来。该预测系统由四个子系统组成:数据验证,阶段预测,淹没建模和警报分配。机器学习用于两个子系统。阶段预测采用长短期内存(LSTM)网络和线性模型进行建模。使用阈值和歧管模型计算洪水淹没,前者计算淹没程度,后者计算淹没程度和深度。本文首次提供的歧管模型提供了一种机器学习替代洪水淹没的液压建模。在评估历史数据时,所有型号都可以实现可操作使用的足够高的度量指标。 LSTM表现出比线性模型更高的技能,而阈值和歧管模型达到了类似的性能度量,以便在淹没程度上进行建模。在2021年的季风季节期间,洪水预警系统在印度和孟加拉国运营,覆盖河流的洪水区,总面积287,000平方公里,拥有350多万人。超过100米的洪水警报被发送给受影响的人口,相关当局以及紧急组织。系统上的当前和未来的工作包括将覆盖范围扩展到额外的洪水易发位置,以及提高建模能力和准确性。
translated by 谷歌翻译